查看原文
其他

三千回归线里选中了你,你有多靠谱?| 协和八

2017-04-13 田菊 协和八

说人话的统计学

上一集我们讲了如何通过最大似然法计算出最符合数据的回归线,从而建立自变量与因变量之间的线性模型。说到底,线性模型是对实际数据中自变量与因变量关系的一种近似这个近似到底合不合理,有没有实际意义,我们该如何判断呢?

由于自变量的选择有很多,即使我们把八杆子打不着的两个因素放在一块,我们也能建立两者之间的线性模型。比如,我们用学校到家里的距离,或者家里宠物狗的体重来建立小朋友的身高的线性模型,这样的模型往往并不会具有统计学上的显著性。

需要警惕的是,如果我们尝试在大量毫无关系的变量之间做线性模型的相关分析,总会因为巧合导致其中一些看似有统计学意义上面的显著性。比如说,有人竟然发现每年美国人均吃芝士的量与被床单缠死的人的数量有相关性。这显然在道理上是说不通的。这其实就是我们在前面 t 检验和 ANOVA 检验里面提到过的假阳性问题,也就是实际上明明没关系,而统计上有鼻子有眼地找出了显著的关系。

基于上面的原因,我们在建立线性模型(其实也包括其它任何统计模型)的时候,首先会根据特定领域的专业知识选择与因变量有可能有相关性的自变量来建模。比如在前面讲的子女身高的例子里面,我们的模型是子女的身高与用母的身高有线性关系,因为从生物学的角度,身高可能会具有一定的遗传性,这是模型具有合理性的前提。这样建立的起来的模型才具有实际应用的价值。

我们根据一个看上去合情合理的猜想建立了父母身高和子女身高之间的线性模型,在这个模型里面,父母身高是自变量 x,子女身高是因变量 Y。它们的关系用线性模型表示为:

当然,这个看似很有道理的假设也许只是我们的一厢情愿——或许父母和子女的身高没有关系。换句话说,不同身高的父母对应的子女身高并没有什么不同。用数学语言来描述就是 xi 取不同的值,yi 并不随之改变,为了满足这种情形,β1 只能等于零。在这种情况下,子女身高与父母身高的模型更应该是:

这就是说,要验证线性模型中自变量与因变量是不是有显著的线性相关性,其实就是检验 β1(即回归线的斜率)是否不等于零

在上一集《回归线三千,我只取这一条》里面我们引入了大似然估计来找出对斜率 β1 的最佳估计:

这里只是对真实斜率值 β1 的一个估计,而且由于随机误差的 εi 存在,我们对斜率 β1 估计值的总是存在误差。假如真实的斜率是 0.5,一个样本由 50 个家庭的身高数据组成,从一个小镇的人口里面随机抽取这样的样本 100 次,根据每个样本对斜率得到的最佳估计都会略有不同,比如有时是 0.4,有时是 0.6,总体应该在斜率的真实值 0.5 上下波动。

如果这 100 个样本里面几乎都大于 0,直观上真实的斜率 β1 也很有可能大于 0;如果这 100 个样本里面一半小于 0 、另一半大于 0,很有可能真实的斜率 β1 跟 0 很接近。

上面只是直观的判断,我们还需要用更定量的方法描述斜率的估计值的分布。

在 εi 满足方差为 σ 的正态分布时,重复抽取很多样本,对每个样本都用极大似然估计找出一个,在数学上可以推导出,满足正态分布,其方差表达式为:

的方差越小,说明我们对斜率 β1 的估计就越准确。

观察方差表达式,我可以看出:咱们模型里面的误差项越大,那么我们对斜率 β1 的估计就越不准确;自变量 x 的方差总和(分母项)越大,对斜率估计就越准确。

上面的方差表达式的分子是误差项的方差,它其实是个未知数。但我们正好可以用上一集讲到 σ2 的估计值来代替,这样我们就知道相对真实斜率 β1 的分布了。

知道了的分布,我们就可以计算大家熟悉的 p 值

与之前 t 检验时学到的 p 值的定义类似,线性假设显著性检验的 p 值指的是:当原假设成立,即真实的 β1 等于 0 时,根据实际数据计算出的斜率大于或小于-的概率(这是双侧检验的情形,单侧检验可以类比 t 检验里讲过的情形)。如果 p 值非常小,说明原假设成立时,观察到的值的概率会很低,从而认为原假设不太可能成立。

知道了的分布,我们还可以计算斜率 β1 的置信区间

由于估计值总是以真实的斜率 β1 为中心呈高斯分布, 有 95% 概率真实斜率 β1 会被以下的区间涵盖:

这并不是说真实的斜率会服从这样一个概率分布,在频率派的框架底下,真实的斜率是一个确切的值,只是由于数据本身的随机性,我们测量到的斜率会上下浮动,导致有一定的概率估计值会远离真实值 β1。 关于置信区间的更详细解读可以参考《用置信区间,就是这么(不)自信!》。

用线性模型分析数据时,找出斜率的置信区间往往比知道 p 值更有用。95% 置信区间不包含 0 等价于 p 值小于 0.05 。因为线性模型的一大功能就是做预测,有了斜率的置信区间,我们就能知道父母的身高增加 1 厘米,子女的身高增加的多少以及其误差范围。

当然,实际应用中,统计软件会帮我们算出斜率的 p 值和置信区间,所以和之前我们讲过的其他原理一样,上面这些式子都用不着去背。但是,知道它们的含义和怎么来的,可以让我用起来心中更有数。

如果我们能减少 β1 估计值的方差,我们对 β1 的估计就会更准确,具体说来就是置信区间会变窄,从而统计功效更强,越容易检验出自变量与应变量之间的相关性,好处多多。

那有没有什么方法能够减小的方差呢?

前面讲到的方差与线性模型中误差项的方差呈正比,与自变量的方差呈反比。前者反映的是模型本身局限性,并不为我们的意志改变(除非我们想出更好的模型),但是后者则是可以在采集数据时做好规划来改变的。我们在采集样本的时候,要尽量涵盖自变量的全部范围,增加样本中自变量值的方差。

在建立父母身高和子女身高的线性模型的例子里面,在最极端的情况下,如果样本中所有父母的身高都一样,我们便无法知道父母身高变化时子女身高是否会随着变化。具体到单个数据点上,假如父母的平均身高是170cm,某一个样本对应的父母身高也是170cm,那么这个样本对的贡献为0,并不能增加估计 β1 的准确性。

事实上,x 离均值越远的样本对减少方差的贡献越大,包括身高很矮或很高的样本是提高线性模型统计功效的有效方法。

最后,我们再来看看如何解读假设检验的结果

即使 β1 等于 0,也不能完全说明自变量和因变量之间没有关系,只能说明线性模型不能很好的描述两者之间的关系,有可能它们具有非线性的关系,如下图例子。以后我们会更详细地讲如何用线性模型来处理非线性关系。

图中 y 与 x 的关系是抛物线而不是直线,数学表达式是 y=(x-10)。如果直接用线性模型拟合,得到的结果是斜率为零,但是并不能说明 y 与 x 之间没有关系。

如果我们在计算出来斜率的 p 值和置信区间后,发现斜率并不显著,在检查其它可能性之前,首先,我们应该考虑是否有足够的统计功效,如果是统计功效不足,想办法多收集一些数据,尤其是离平均值比较远的数据说不定可以解决问题。

而导致斜率不显著的另外一个可能的原因,是影响 Y 取值的除了 x 还有其它因素,这种情况下,自变量与因变量之间确实具有线性关系,但是由于没有考虑到其它因素的影响,使得模型认为的误差项比实际的误差项大很多,所以导致结果不显著。

未完待续

回复「统计学」可查看「说人话的统计学」系列合辑,

或点击下方标题可阅读本系列任意文章


干货

第1章  高屋建瓴看统计

你真的懂p值吗?

做统计,多少数据才算够?(上)

做统计,多少数据才算够?(下)

提升统计功效,让评审心服口服!

你的科研成果都是真的吗?

见识数据分析的「独孤九剑」

贝叶斯vs频率派:武功到底哪家强?


第2章  算术平均数与正态分布

数据到手了,第一件事先干啥?

算术平均数:简单背后有乾坤

正态分布到底是怎么来的?


第3章  t检验:两组平均数的比较

想玩转t检验?你得从这一篇看起

就是要实用!t 检验的七十二变

不是正态分布,t 检验还能用吗?

只有15个标本,也能指望 t 检验吗?

样本分布不正态?数据变换来救场!

数据变换的万能钥匙:Box-Cox变换

t 检验用不了?别慌,还有神奇的非参数检验

只讲 p 值,不讲效应大小,都是耍流氓!

找出 t 检验的效应大小,对耍流氓 say no!

用置信区间,就是这么(不)自信!

如何确定 t 检验的置信区间

优雅秀出你的 t 检验,提升Paper逼格!

要做 t 检验,这两口毒奶可喝不得!


第4章  方差分析(ANOVA)多组平均数的比较

要比较三组数据,t 检验还能用吗?

ANOVA在手,多组比较不犯愁

ANOVA的基本招式你掌握了吗?

ANOVA做出了显著性?事儿还没完呢!

听说,成对t检验还有ANOVA进阶版?

重复测量ANOVA:你要知道的事儿都在这里啦

没听说过多因素 ANOVA ?那你就可就 OUT 了!

多因素ANOVA=好几个单因素ANOVA?可没这么简单!

两个因素相互影响,ANOVA结果该如何判读?

ANOVA还能搞三四五因素?等等,我头有点儿晕

要做ANOVA,样本量多大才够用


第5章  线性回归:统计建模初步

(未完,更新中)

车模航模你玩过,统计学模型你会玩吗?

如果只能学习一种统计方法,我选择线性回归

回归线三千,我只取这一条


自检

妈妈说答对的童鞋才能中奖

统计学的十个误区,你答对了吗?


番外篇

说人话的统计学:一份迟来的邀请


五年执医 三年模拟

精选每日一题

更多精选题可回顾历史推送文末

题目来源:临床执业医师资格考试往届真题

本期主播:波棱瓜子🍉


作者:田菊

编辑:黑草乌叶

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存